Optimización estable de políticas con convexidad de logits Descubre cómo la convexidad de logits estabiliza la optimización de políticas en RL, superando la inestabilidad del PPO. Resultados probados en múltiples benchmarks. 2026-06-02 · 2 min